和AI也能玩“你画我猜”?“灵魂画手”背后的技术了解一下!
药明康德AI/报道
这两天,一款名为“猜画小歌”的微信小程序刷爆了我们的朋友圈。这款小程序由 Google AI推出,用户在每一轮体验中,都需要在20秒内以绘画的形式来描述给定词语(比如狗、钟表或鞋子),而AI程序负责在时间结束前猜出这个词。当 AI 猜对时用户就会进入下一轮,当AI在20秒内无法猜出你画的物体时,则宣布游戏结束。在这个游戏的帮助下,一大批“灵魂画手”诞生了。
本文来源:药明康德AI
在体验这款游戏的过程中,我们很惊奇地发现,有的时候就算我们只画出了一个轮廓甚至其中一笔,AI也可以顺利地猜出正确答案。这背后的原理究竟是什么呢?
▲AI是怎么猜对这幅未完成的“灵魂画作”就是面包车的呢?(图片来源:小程序截图)
“灵魂画手”背后的工作原理
事实上,“猜画小歌”使用了一种名为递归神经网络(RNN)的技术,建立在一个包含5000 万个手绘素描的数据群的基础之上。递归神经网络主要刻画一个序列当前的输出与之前信息的关系,也就是说,RNN会记忆之前的信息,并且利用之前的信息影响后面的输出。
除了RNN技术之外,计算机视觉技术也是“猜画小歌”如此厉害的原因之一。计算机视觉是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。也就是说,这项技术能让计算机直接理解输入的视觉信息,并由此“看到”这个世界。
▲欣赏一下AI完成的涂鸦作品(图片来源:arXiv.org)
谷歌AI研究人员在去年发表的一篇论文中就介绍了一项训练AI学会涂鸦的研究:在训练AI识别人们的涂鸦时,科研人员们受人类绘画过程的启发,降低维度,通过用大量的手绘涂鸦来组成数据集训并输入到RNN中,再辅以计算机视觉技术,从而让AI在识别这些图像之后,能够理解人们在绘制涂鸦时是在何时起笔、走笔方向、何时停笔。经过训练的RNN在接收一张人手绘的涂鸦后,可以生成一张同主题的新涂鸦。
▲即使是一张牙刷的图片,神经网络也可以把其改造成猫的形态(图片来源:arXiv.org)
值得注意的是,在这里AI并不是机械地完成了重复人的涂鸦作品这一操作,而是真正对图像的本质进行了分析和理解。能够很好地说明这一点的例子就是,当输入神经网络的猫图像为非典型图像(例如少一根胡子、没有嘴巴,或者多一只眼睛等),甚至输入的图像根本不是猫的时候,AI也可以根据猫的特征,对图像进行修正。
▲AI可以对未完成的涂鸦作品的下一笔进行预测,从而呈现不同的图像(图片来源:arXiv.org)
同时,RNN还可以完成很多神奇的操作,例如将不同的模型涂鸦进行类比,或者对下一笔要画什么进行预测,从而在在同一个元素的基础上,产生各式各样的作品。
医疗领域的应用
RNN和计算机视觉这么神奇的技术,是否可以应用于医疗领域呢?这个答案是肯定的。目前,研究人员已经将这些技术应用到人们的生活中,同时也进行了很多创新研究,实现了医疗领域的很多突破。
在神经网络应用方面,近日加州理工学院的生物工程助理教授钱璐璐团队用DNA制造出了一种人工神经网络,可以完成正确识别手写数字的过程。该神经网络需要识别的是“分子笔迹”,而不是手写数字的几何形状。DNA神经网络可以将一个分子笔迹分为9个类别,每类代表从1到9的九个手写数字之一。当一个未知数字出现时,该神经网络在进行一系列识别过程后会输出两个荧光信号,来代表其识别出来的结果。这项研究标志着人工智能在编入合成生物分子电路方面,迈出了重要的一步。
▲DNA人工神经网络识别数字6和7过程的示意图(图片来源:《Nature》)
另外,谷歌的研究人员近日也成功训练出了一个递归神经网络,可以自动映射大脑的神经元结构并构造神经元和突触的3D模型,从而将大脑的神经元网络结构自动重现。研究人员使用边缘探测算法来确定神经元的边界,同时使用递归卷积神经网络,来将图像中和神经元相关的像素集中到一起并不断对该区域进行填充,神经网络会预测哪些像素与初始像素属于同一个物体。研究人员表示,该研究和之前的深度学习技术相比,准确度“提升了一个数量级”。
▲算法对斑胸草雀大脑中的单一神经元进行追踪的过程示意图(图片来源:Google AI Research Blog)
而计算机视觉技术在医疗方面的应用就更加广泛了。从识别人类视网膜图像中体现的心血管疾病风险因素,到以比人类医生更高的准确率来诊断癌症,计算机视觉技术加持下的AI在医疗领域显示出的潜力越来越大。
谷歌大脑研究小组利用深度学习,在人体产生的变化和疾病之间建立联系。研究人员通过对284335名患者的视网膜图像进行深度学习的算法研究,能以惊人的高准确度预测病人的心血管疾病风险因素,而这些因素在此之前并不能通过视网膜图像被识别出来。风险因素包括:年龄、性别、吸烟状况、收缩压、不良心血管事件等。例如,深度学习技术通过视网膜图像区分吸烟者与不吸烟者,准确率达到了71%。此外,虽然医生通常可以区分严重高血压患者和正常患者的视网膜图像,但AI算法可以进一步预测在11 mmHg以内的患者平均收缩压。这些研究结果可以帮助科学家做出更有针对性的假设,从而推动未来的广泛研究。
▲左图:正常的视网膜图像;右图:视网膜的黑白图像,其中AI算法在推测影响心血管因素时使用的像素被标记为绿色(图片来源:《Nature Biomedical Engineering》)
AI在检测黑色素瘤方面的表现,也已经超过了经验丰富的皮肤科医生。在一项研究中,研究人员使用了超过10万张皮肤癌图像及诊断结果对AI进行训练,提高其区分皮肤癌和良性皮肤痣的能力。在完成训练后,研究人员使用了300张新图像,来对CNN识别癌症的能力进行评估,并同时邀请人类专家完成同样图像的诊断。研究结果显示,在第一阶段,皮肤科医生能够准确检测到平均86.6%的黑色素瘤,同时也可以准确识别出平均71.3%的非恶性病变。然而,当AI识别良性痣的准确率达到同样的71.3%时,它检测出黑色素瘤的准确度竟高达95%!这一成绩已经超越了人类皮肤科医生的表现。
▲CNN检测结果(红色曲线)与皮肤科专家检测结果平均值(大型墨绿色圆点)对比。可以看出,当特异度(X轴)数值相同时,CNN检测结果的敏感度(Y轴)数值明显高于皮肤科专家检测结果(图片来源:《Annals of Oncology》)
看到这里,你是不是对AI版你画我猜背后的RNN和计算机视觉技术,以及它们在医疗领域的应用有了更进一步的认识了呢?我们也希望,这些技术在未来能够更加广泛地应用于医疗健康领域,从而为我们的生活带来更多的便利。
参考资料:
[1] A Neural Representation of Sketch Drawings
[2] 在 Google 首款微信小程序“猜画小歌”里遇见 AI
[3] AI 是怎么让机器学会涂鸦的?
[4] A beginner’s guide to AI: Neural networks
[5] 华人学者新突破!钱璐璐团队开发DNA人工神经网络,能够识别手写数字
[6] 重磅!谷歌新AI算法可重现大脑结构,自动追踪绘制神经元(动图)
[7] 重磅进展!谷歌AI从视网膜图像识别心血管疾病
[8] 重磅研究首次表明:AI检测皮肤癌,表现已优于人类专家!
本文来自药明康德微信团队,欢迎转发到朋友圈,谢绝转载到其它平台。如有开设白名单需求,请在文章底部留言;如有其它合作需求,请联系wuxi_media@wuxiapptec.com
更多精彩文章:
重磅!谷歌新AI算法可重现大脑结构,自动追踪绘制神经元(动图)